作为固定计算的道德
❦
Toby Ord 评论道:
Eliezer,我刚重读了你的文章,并且在想,这是否可以作为你立场的一个简明总结(暂且不谈你是怎么得出这个立场的):
「我应该做 X」,意思是:如果我获得了完全信息,我就会尝试去做 X。
Toby 是个行家,所以如果连他都没弄明白,我最好还是再试一次。让我换一种解释路径——一种更接近我自己当初走到这个立场时所走思路的解释路径。
假设你造出了一个 AI,而且——先撇开 AI 的目标系统不能建立在英语陈述之上、以及所有这类描述都只是梦想不谈——你试图把「做我想要的事」这一决定行动的原则灌输给这个 AI。
再假设,你把这个 AI 的设计做得足够接近目标——它不至于只是把宇宙铺满回形针、乳酪蛋糕,或者一堆心满意足的程序员的微型分子复制体——以至于它的效用函数,确实会对那些我们用英语描述为如下形式的世界状态赋予如下效用:
<程序员微弱地想要「X」,
存在 20 个 X>:+20
<程序员强烈地想要「Y」,
存在 20 个 X>:0
<程序员微弱地想要「X」,
存在 30 个 Y>:0
<程序员强烈地想要「Y」,
存在 30 个 Y>:+60
你当然看得出来,这会毁掉世界。
……因为如果程序员一开始只是微弱地想要「X」,而 X 又很难得到,AI 就会把程序员修改成强烈地想要「Y」——而 Y 很容易制造——然后再大量地实现 Y。比如说,「Y」所指的东西可能是铁原子——那可是高度稳定的。
你能给这个问题打补丁吗?不能。一般来说,有缺陷的 Friendly AI(友好型 AI)设计是无法靠打补丁修好的。
如果你试图给效用函数加上上界,或者让 AI 不去在乎程序员想要某样东西的程度有多高,这个 AI 仍然会有动机(作为一个期望效用最大化者)去让程序员想要某种几乎可以百分之百确定拿到的东西。
如果你试图让 AI 不能修改程序员,那它也就不能和程序员说话了(和一个人说话本身就会修改他)。
如果你试图排除某一类 AI 修改程序员的具体方式,那么这个 AI 就会有动机以超智能的方式去寻找漏洞,以及其他间接修改程序员的办法。
一般来说,有缺陷的 FAI(友好型 AI)设计是无法靠打补丁修好的。
我们自己并不会去设想未来并作出判断,认为:只要在某个未来里,我们的大脑想要某样东西,而那样东西也确实存在,那就是一个好未来。要是我们真是这么想的,我们就会说:「太好了!尽管把我们改造成强烈想要某种廉价东西吧!」但我们并不会这么说,这就意味着,这种 AI 设计在根本上就是有缺陷的:它会选择出与我们会选择的东西大不相同的结果;它判断某物是否可欲的方式,也会和我们的判断极不一样。这种核心性的不协调,不可能靠排除少数几种特定失效模式来修补。
Friendly AI 问题和道德哲学问题之间还存在一种对偶关系——不过你得把这种对偶关系的结构搭得恰到好处才行。所以,如果你更愿意这么说,核心问题就在于:这个 AI 的选择方式,与某种你知道的、真正正确之物的结构极不相像——先别管它和我们的选择方式像不像。这个问题的重点,不正是在于:仅仅想要某样东西,并不会让它因此就变成对的吗?
所以,这就是那个看起来带点悖论色彩的问题;我曾把它类比为下面这两者之间的区别:
一台计算器:当你按下「2」「+」和「3」时,它试图计算的是:
「2 + 3 等于多少?」
另一台计算器:当你按下「2」「+」和「3」时,它试图计算的是:
「当你按下『2』『+』和『3』时,这台计算器会输出什么?」
可以说,1 型计算器想要输出 5。
2 型「计算器」则可以返回任何结果;而在它返回那个结果的过程中,它也就成为了它内部所提出问题的正确答案。
我们自己更像是 1 型计算器。但那个假想中的 AI,却是按仿照 2 型计算器的方式来建造的。
现在再想象一下,1 型计算器正在试图造一个 AI,只不过这个 1 型计算器并不知道它自己的问题是什么。这个计算器凭借其本性不断在发问——它生来便已围绕着那个问题运动——但它并不了解自己的晶体管;它无法把那个问题打印出来,而那个问题极其复杂,并且没有简单的近似。
所以,这个计算器想造一个 AI(它其实是台挺聪明的计算器,只不过它接触不到自己的晶体管),并让这个 AI 给出正确答案。只是这个计算器没法把问题打印出来。于是,它想让 AI 去看看这个计算器本身——问题就写在那里面——然后回答 AI 从那些晶体管中发现其隐含的问题。但这件事不能靠那种廉价捷径来完成:写一个效用函数,说「对所有 X:若 ⟨计算器问出『X?』,答案为 X⟩,则效用为 1;否则效用为 0」,因为这实际上反映的是 2 型计算器的效用函数,而不是 1 型计算器的。
这就把我们带进了一些我在这里不打算展开的 FAI 问题(其中有些我自己也还在继续琢磨)。
然而,当你从 FAI 设计的细节里抽身出来,重新回到道德哲学的视角时,我们刚才谈的那件事,就是那个道德问题的对偶面:「可如果『正确』不过是一种偏好,那么任何人想要的任何东西就都是『正确』的了。」
关键概念在于:我们用「正确」来命名的东西,是一个固定的问题,或者也许是一个固定的框架。我们可能会遇到改变我们终极价值的道德论证,甚至会遇到改变我们认为什么才算道德论证的道德论证;尽管如此,这一切依然都生长自某个特定的起点。我们并不把自己体验为在体现这样一个问题:「我将决定去做什么?」——那会是一台 2 型计算器;那样一来,我们无论决定什么,它都会因此变成正确的。我们把自己体验为在提出这样一个被具身化的问题:「怎样才能让我的朋友和同胞免受伤害?怎样才能让我们大家都更开心?……」而这里的「……」大约还包含着一千样其他东西。
所以,「我应该做 X」并不意味着:如果我获得了完全信息,我就会尝试去做 X。
「我应该做 X」,意思是:X 回答了这样一个问题——「什么能拯救我的同胞?怎样才能让我们大家都更开心?怎样才能让我们对自己的生活拥有更多掌控?我们能讲出最好笑的笑话是什么?……」
而且,实际上,我也未必知道这个问题究竟是什么;我也许既无法把自己当前的猜测打印出来,也无法把包围着它的整个框架打印出来;但我知道——正如所有非道德相对主义者凭直觉都知道的那样——这个问题肯定不只是「我怎样才能为所欲为?」